Learning in Nonstationary Environments A Survey

简介

  之前许多方法基于这样的假设,产生流数据的过程是静态的,数据是从某一个固定未知的概率分布产生的。但这个假设不仅是简单的也不是正确的。产生数据流的潜在过程可被某种非静态(演化或漂移)的现象刻画。这篇论文主要是对处理概念漂移问题而提出来的方法做一次全面的概述。作者从两个核心视角对非静态环境中学习的问题做描述:主动和被动方法。此外,这篇文献还覆盖了从初始有标注非静态环境学习,从类被不平衡的非静态环境中学习这两类问题的最新的研究。

  论文地址

  作者行文组织如下:

  1. 形式化在非静态环境中学习用于分类任务的过程,提出可以归入非静态环境框架的场景
  2. 作者描述了两种广泛的用于学习概念漂移的策略家族:主动和被动
  3. 作者描述了当前和未来在非静态环境中学习的开放问题,并提供了一些关于非静态环境学习的工具和数据集资料。

mind

非静态环境学习框架

数据生成过程

  这一小结介绍了概念漂移的概念和类型。

非静态环境学习的算法考虑

  这一小节,作者描述了为动态环境学习设计算法应该考虑三方面的因素。一个是数据分布会变化并且数据长度是无穷的。这要求算法是增量的,并且可以处理这种分布变化。一个是验证延迟的问题。另一个是通过隐藏上下文感知概念漂移。

在非静态环境学习框架下的相关问题

  在非静态环境学习可以被视为是一个框架,在这个框架之下,几种机器学习概念和问题域可以被列出。

  第一个是学习模式选择的问题,可以是监督学习,半监督学习和无监督学习。

  covariate shift,域适应和迁移学习的一个共同特点是,训练集和测试集之上的概率分布有漂移。covariate shift描述这样一种改变,训练集和测试级上,$p_{train}(y|x) = p_{test}(y|x)$,但是$p_{train}(x) \ne p_{test}(x)$。迁移学习解决这样的问题,训练数据和将来数据必须处于同样的特征空间,具有同样的分布。在域适应中,训练数据和测试数据是从不同但相关的域中分别采样的。

主动和被动方法

  在概念漂移会出现下学习的自适应算法主要是基于两种方法:主动和被动。主动方法旨在检测概念漂移,但被动方法旨在当新数据出现时连续的更新模型,不管概念漂移是否出现。

  在实践中,两种方法都有用,但选择哪一种方法应该根据应用来定。实际上,在选择用于非静态环境学习的特定算法之前,考虑学习场景的动态是很重要的,比如,漂移率,数据在线还是批量到来,可用的计算资源和关于数据分布的任何假设。

  通常来说,被动方法可以更好的处理渐变漂移和循环漂移,而主动方法能够更好的处理突变的漂移。被动方法更适合于批量学习,而主动方法更适用于在线学习。

  其他相关的挑战包括类别不平衡和验证延迟,还有迁移学习在其中的应用等。

未来研究的主题

  1. 学习的理论框架。非静态环境学习领域可以收益于对通用框架的更深一步的理论分析,在这个框架中,可以建立于漂移类型和几率相关的性能边界。

  2. 非静态共识最大化。当数据流里混合标注数据和未标注数据是应该怎么做?共识最大化旨在提供一种框架,可以建立和联合多个有监督或是无监督模型用于预测。一个有意义的研究方向,就是研究共识最大化在非静态环境中的使用。

  3. 无结构或异质数据流。从大数据中挖掘的一个关键问题就是适应无结构的或是异质数据(文本,图像,图)。此外,为学习而获取的数据可以具有不同的特征,例如多维度,多标签,多尺度和空间关系。正在进行的对概念漂移的应对的研究应该为这样的新数据提出新的建模和适应策略。

  4. 有限的或渐变的漂移的定义。有限的或渐变的漂移是在非静态环境中学习的算法的主要假设之一,尤其是对无监督或半监督方法。但是,什么构成了有限制的漂移的形式化定义却不在其中。作者认为当有限的漂移假设被违反时,我们不仅没有已经建立的方法来解决这些情况,我们甚至没有简明扼要的有限漂移的正式定义的数学公式。数学定义将允许社区更好地理解算法在非静态环境中的局限性。

  5. 短暂概念漂移和有限数据。该设置指的一种演化环境,概念漂移是短暂的,并且与平稳性变化相关的实例的数量可能非常有限。这是特别具有挑战性的,因为用于变化检测机制的实例非常少,并为非静态分布的参数的置信学习增加了额外的难度。